home *** CD-ROM | disk | FTP | other *** search
/ Ian & Stuart's Australian Mac: Not for Sale / Another.not.for.sale (Australia).iso / fade into you / being there / About / Internet History / Special Interest Networks < prev    next >
Text File  |  1994-10-12  |  38KB  |  744 lines

  1. This preprint should be cited as follows:
  2.     Green, D.G. (1994). SINS of the Internet - the nature and
  3.     organization of Special Interest Networks. E Journal ???.
  4.  
  5.    
  6.      _________________________________________________________________
  7.    
  8. SINS OF THE INTERNET - THE NATURE AND ORGANIZATION OF SPECIAL INTEREST NETWORKS
  9.                                        
  10. David G. Green (1) and Anthony Wesley (2)
  11.  
  12.    School of Environment and Information Science
  13.        Charles Sturt University
  14.        PO Box 789 Albury NSW 2640 AUSTRALIA
  15.        
  16. Email:  david.green@anu.edu.au
  17.    (2) Bioinformatics Facility,
  18.        Research School of Biological Sciences,
  19.        Australian National University, Canberra, ACT 0200 
  20. Email:  awesley@life.anu.edu.au
  21.  
  22. CONTENTS
  23.  
  24.      * Abstract
  25.      * Introduction
  26.      * Special Interest Networks
  27.           + Coordination
  28.           + Research
  29.      * The Technological Setting
  30.           + FTP
  31.           + Telnet
  32.           + Listserve
  33.           + WAIS
  34.           + Gopher
  35.           + World Wide Web
  36.      * Implementation
  37.           + Organization
  38.           + Standards
  39.           + Quality control
  40.           + Distributed databases
  41.           + Network library
  42.           + Network Publishing
  43.           + Automation
  44.      * Discussion
  45.      * Acknowledgements
  46.      * References
  47.        
  48. ABSTRACT
  49.  
  50.    A Special Interest Network (SIN) is a set of network sites ("nodes")
  51.    that collaborate to provide a complete range of information activities
  52.    on a particular topic. SINS are emerging as an important new paradigm
  53.    for large scale collaboration that on the Internet. Their main
  54.    functions are communication, network publication, maintaining virtual
  55.    libraries, and special services. Coordination is achieved through
  56.    logical design, automation, mirroring, standards, and quality control.
  57.    To be successful, SINs should strive to provide reliable, authorative
  58.    information services, to encourage participation, and to accommodate
  59.    growth.
  60.    
  61. INTRODUCTION
  62.  
  63.    The introduction of new protocols, especially Gopher and World Wide
  64.    Web, has led to an information explosion on computer networks around
  65.    the globe. Driven by a rapid growth in the number of users the
  66.    Internet is rapidly becoming the world's most important means of
  67.    scientific information exchange. Perhaps the most significant effect
  68.    of these developments is that they are beginning to change the very
  69.    ways in which we carry out many activities, such as research, and
  70.    teaching. Here I propose a new type of organization - the "Special
  71.    Interest Network" (SIN) - as a paradigm for large scale collaboration
  72.    and communication.
  73.    
  74.    As the volume and variety of network information grows, several
  75.    trends, needs and possibilities are increasingly evident. Perhaps the
  76.    greatest immediate impact of the World Wide Web is that it has makes
  77.    network publishing a viable enterprise. The advantages include
  78.    instant, world-wide availability, hypertext and multimedia content,
  79.    and extreme flexibility in the material and format of publications.
  80.    Besides traditional books and articles, for instance, we can now
  81.    potentially publish data, software, images, animation and audio.
  82.    
  83.    There is a growing trend in many areas of research towards large scale
  84.    projects and studies that involve contributions from many sources
  85.    (Green, 1993a). Also, there is no need for a "publication" to be
  86.    stored all in one place. For instance, acting independently many Web
  87.    sites have put together national or regional guides. Many of these
  88.    documents, such as the Guide to Australia integrate information from
  89.    many different sources. In turn these documents are now themselves
  90.    being merged to form encyclopaedic information bases, such as the
  91.    Virtual Tourist.
  92.    
  93.    There are also great advantages in publishing raw data, as well as the
  94.    conclusions of scientific studies. In many cases data that are
  95.    gathered for one purpose can be recycled and, combined with other
  96.    data, add value to related studies. Perhaps the most prominent example
  97.    is the growth of molecular biology databases. International databases,
  98.    such as Genbank (Bilofsky & Burks, 1988) and EMBL (Cameron, 1988), are
  99.    public compilations consisting of contributions from thousands of
  100.    scientists. Attempts are now underway to expand this practice into
  101.    other areas of science, such as biodiversity (e.g. Burdet, 1992;
  102.    Canhos et al., 1992; (Green, 1994; Greuter, 1991).
  103.    
  104.    The trends described above have made several needs increasingly
  105.    obvious. These include:
  106.      * Organization - Ensuring that users can obtain information easily
  107.        and quickly. Indexing services, such as Archie, Veronica and
  108.        Jughead, have been enormously useful, but are becoming
  109.        increasingly difficult to use, and maintain, as the sheer volume
  110.        of information grows. Subject indexes that point to sources of
  111.        information on particular themes are becoming increasingly
  112.        important in the organization of network information.
  113.      * Stability - Ensuring that sources remain available and that links
  114.        do not go "stale". Rather than gathering information at a single
  115.        centre, an important principle is that the site that maintains a
  116.        piece of information should be the principal source. Copies of
  117.        (say) a dataset can become out-of-date very quickly, so it is more
  118.        efficient for other sites to make links to the site that maintains
  119.        a dataset, rather than take copies of it.
  120.      * Quality - Ensuring that information is valid, that data are
  121.        up-to-date and accurate, and that software works correctly.
  122.      * Standardization - Ensuring that the form and content of
  123.        information make it easy to use.
  124.        
  125. SPECIAL INTEREST NETWORKS (SINS)
  126.  
  127.    A Special Interest Network (SIN) is a group of people and/or
  128.    institutions who collaborate to provide information about a particular
  129.    subject. SINS perform several important functions:
  130.      * Publication - the SIN publishes information on the specialist
  131.        topic. Besides articles and books in the traditional sense,
  132.        publications can also include datasets, images, audio, and
  133.        software.
  134.      * Library - the SIN provides users with access to information on the
  135.        specialist topic. Besides information stored on-site, there are
  136.        links to relevant information elsewhere.
  137.      * Services - the SIN might provide relevant services, such as
  138.        analyzing data, to its users.
  139.      * Communication - the SIN provides a means for people in the field
  140.        to keep in touch. This might include mailing lists, newsgroups,
  141.        newsletters, and conferences.
  142.        
  143.    I shall assume that all of the above activities are principally
  144.    electronic and take place over a network.
  145.    
  146.    SINS consist of a series of participating "nodes" that each contribute
  147.    to the network's functions. More specifically the nodes carry one or
  148.    more of the following:
  149.      * Accept and store relevant, contributed material;
  150.      * Provide some form of public access for users;
  151.      * Provide some unique information, or mirror other sites;
  152.      * Provide organized links to other nodes;
  153.      * Coordinate their activity with other nodes.
  154.        
  155.    
  156.    
  157.    FOr research activity, SINs are the modern equivalent of learned
  158.    societies. Some may even be the communications medium for societies
  159.    (e.g. Burdet, 1992). We can also consider SINs as a logical extension
  160.    of newsgroups and bulletin boards. Namely, they aim to provide a
  161.    complete working environment for their members and users. SINs differ
  162.    from SIGs ("special interest groups") in two important ways. First
  163.    SIGs are usually part of larger organizations. The second, and
  164.    greater, distinction lies in the use of networks. Whereas a group
  165.    usually has a focus, SINs are explicitly decentralized.
  166.    
  167.    A good example of a SIN is the European Molecular Biology Network.
  168.    EMBNet is a special interest network that serves the European
  169.    molecular biology and biotechnology research community. It consists of
  170.    nodes operated by biologically oriented centers in different European
  171.    countries. It features a number of services and activities, especially
  172.    genomic databases such as EMBL (Cameron, 1988).
  173.    
  174.    The following features characterize most large special interest
  175.    networks. They also provide guidelines for setting one up.
  176.    
  177.     1. Need - The SIN serves a need that is not being met by other means,
  178.        or provides a better (more comprehensive, accurate or reliable)
  179.        set of data than is available from other sources.
  180.     2. Coordination - a controlling organization or syndicate manages the
  181.        network, receives and processes new entries, and communicates
  182.        relevant news to its users.
  183.     3. Support - There is a body of users who are willing and able to
  184.        help to establish and manage the network's information activities
  185.        (managing databases, editing publications, moderating newsgroups,
  186.        mailing lists, etc.).
  187.     4. Participation - Anyone may contribute items to the information
  188.        base. Major SINs announce new entries via special newsgroups or
  189.        mailing lists. Contributors carry out all editing of their
  190.        entries, including formatting, correcting and updating them.
  191.     5. Access - Anyone may access, copy or use the information at any
  192.        time. Normally access is via a computing network using a standard
  193.        protocol.
  194.     6. Standards (see later) - Contributors must use standard fields and
  195.        attributes in submissions (e.g. Croft, 1989). These standards must
  196.        be well defined and should be publicized as widely as possible.
  197.        For data they are often expressed as a submission form
  198.        (electronic, printed, or both) that is filled in by contributors.
  199.     7. Format - Textual data (including bibliographies, mailing lists,
  200.        etc.) are normally submitted as ASCII files with embedded tags.
  201.        The Standard Generalized Markup Language (SGML) provides a
  202.        flexible medium for formatting information for a variety of
  203.        purposes. The Hypertext Markup Language (HTML), which is an SGML
  204.        application, is used for formatting documents for distribution via
  205.        the World Wide Web. On any particular node databases can be stored
  206.        using any database software, provided that a suitable network
  207.        gateway can be provided. Utilities for SQL/HTML conversion are now
  208.        widely available, for instance. Images should be in one of the
  209.        common formats in use, such as GIF (Graphic Interchange Format) or
  210.        JPEG (Joint Photogrwphic Experts Group).
  211.     8. Quality control (see later) - Users need some guarantee that data
  212.        provided in a database are both valid and accurate (Green, 1991,
  213.        1992). Quality control checks can be applied by database
  214.        contributors, coordinators, and users (see later).
  215.     9. Attribution - Every item of information should include an
  216.        indication of its contributor. This is essential to the notion
  217.        that contributions are a form of publication.
  218.    10. Agreements - There is an explicit list of terms and conditions.
  219.        Typically, users agree to acknowledge the sources and to waive
  220.        liability for any use they make of the data. Contributors agree to
  221.        place their data in the public domain. The organizers agree to
  222.        abide by the usual conditions for publications, such as referring
  223.        corrections or changes to the contributors. Everyone agrees not to
  224.        sell or charge for the data.
  225.    11. Automation - as many operations as possible (e.g. logging and
  226.        acknowledging submissions) should be automated (Fig. 1).
  227.        
  228.    
  229.    
  230.    [IMAGE]
  231.    
  232.    Fig. 1. Stages in the publication of information on a node of a SIN.
  233.        As many steps as possible should be automated. 
  234.        
  235.    
  236.    
  237.   COORDINATION
  238.   
  239.    An information system that is distributed over several sites (nodes)
  240.    requires close coordination between the sites inolved. The
  241.    coordinators need to agree on the following points:
  242.     1. logical structure of the on-line information;
  243.     2. separation of function between the sites involved;
  244.     3. attribute standards for submissions (see below);
  245.     4. protocols for submission of entries, corrections, etc.;
  246.     5. quality control criteria and procedures (see below);
  247.     6. protocol for on-line searching of the databases;
  248.     7. protocols for "mirroring" the data sets.
  249.        
  250.    
  251.    
  252.    For instance, an international biodiversity database project might
  253.    consist of agreements on the above points by a set or participating
  254.    sites ("nodes"). Contributors could submit their entries to any nodes
  255.    and each node would either "mirror" the others or else provide on-line
  256.    links to them.
  257.    
  258.   RESEARCH
  259.   
  260.    Research may be viewed as a four stage process: identifying questions,
  261.    gathering relevant information, analyzing and interpreting
  262.    information, and disseminating results. SINs have the potential to
  263.    assist researchers at each of these stages:
  264.     1. In the first stage, communication enables researchers to stay in
  265.        constant touch with each other, and with relevant user
  266.        communities. The benefits include the ability to relay questions
  267.        and issues to researchers essentially in real time; to increase
  268.        the likelihood of relevant research questions being addressed in a
  269.        timely manner and to minimize unnecessary duplication of research.
  270.     2. In the information gathering stage, not only can researchers more
  271.        effectively reach sources of relevant information, but also
  272.        contribute to repositories of raw data.
  273.     3. In the analysis stage, researchers may be able to access relevant
  274.        software, search bibliographies, or seek advice from colleagues.
  275.     4. In the dissemination phase, researchers will be able to publish
  276.        their papers (or abstracts and reprints) to a very wide audience
  277.        very quickly. These practices are already widespread in many
  278.        fields (e.g. physics) and several network-based journals already
  279.        exist on Internet (e.g. "Complexity International").
  280.        
  281.    
  282.    
  283. THE TECHNOLOGICAL SETTING
  284.  
  285.    Most parts of the world are now linked by the Internet (Krol, 1992),
  286.    which is a computing "network of networks" that links together over 2
  287.    million computers around the world.
  288.    
  289.    A few of the services currently available include: Gopher, WAIS, World
  290.    Wide Web, FTP, Usenet News, Telnet, Hytelnet (a bibliographic protocol
  291.    for libraries, a library SIN), X.500 and network resource location
  292.    services, such as Archie, Veronica and Jughead, for searching the
  293.    network. For details of available services, see for example, The
  294.    Biologist's Guide to the Internet.
  295.    
  296.     FTP
  297.     
  298.    Until recently "File Transfer Protocol" (FTP) was perhaps the most
  299.    popular method of providing information over the Internet. Under
  300.    "anonymous FTP" users log in to a host site across the network (using
  301.    the name "anonymous" and giving their email address as a "password").
  302.    They are then free to retrieve any files from the host's public
  303.    directories of information.
  304.    
  305.     Telnet
  306.     
  307.    Many sites provide services to "guest" users via the telnet protocol.
  308.    Under telnet, users log in to a host site using a publicized guest
  309.    account. This account allows them to use services that the host makes
  310.    available to the public, such as querying a database or running
  311.    certain programs (e.g. public gopher or web clients).
  312.    
  313.     Listserve
  314.     
  315.    Listervers provide public mailing lists. Subscribers join a list by
  316.    mailing a subscription "subscribe list_name user_name" (with the
  317.    appropriate names inserted, e.g. subscribe biodiv-l Fred Nurk) to the
  318.    server listserv@host_name (e.g. listserv@ftpt.br). The listserver
  319.    program adds their name to the mailing list. Subscribers can
  320.    communicate with everyone on the list by sending messages to the
  321.    address list_name@host_name (e.g. biodiv- l@ftpt.br), which is then
  322.    broadcast to all members of the list.
  323.    
  324.     WAIS
  325.     
  326.    WAIS ("Wide Area Information Servers") is a client-server protocol to
  327.    search for and retrieve files, based on full-text indexing of their
  328.    contents or titles. A common application is a "waisindex", which is
  329.    often available via gopher or web servers.
  330.    
  331.     Gopher
  332.     
  333.    Gopher is a client-server protocol for retrieving multimedia
  334.    information automatically via a system of menus. Developed at the
  335.    University of Minnesota, Gopher revolutionized environmental
  336.    information by enabling computer-non-literates to access network
  337.    information such as FTP and WAIS (including images and sounds) without
  338.    having to know about the usual process. It now has literally millions
  339.    of users world-wide.
  340.    
  341.    The key factors in the success of Gopher are its simplicity - just
  342.    point and click on a menu - and the availability of "client" software
  343.    for all of the most commonly used computing platforms. Previously,
  344.    using the Internet had required a fair measure of computer literacy.
  345.    Gopher made it possible for many people to explore "The Net" for the
  346.    first time.
  347.    
  348.    Furthermore, gopher server sites are very easy to set up and maintain;
  349.    basically ascii files are formatted and placed in a gopher file
  350.    system. However more sophisticated implementations involving such
  351.    things as gateways to SQL databases are also possible.
  352.    
  353.     World Wide Web
  354.     
  355.    The World Wide Web (WWW) originated at CERN in Switzerland. Like
  356.    Gopher, it operates on a client-server basis. The underlying protocol
  357.    is the HyperText Transfer Protocol (HTTP). Like Gopher, WWW supports
  358.    multimedia transactions. But rather than menus, "The Web" deals
  359.    primarily with hypertext documents. These documents are formatted
  360.    using the "Hypertext Markup Language" (HTML) which allows limited text
  361.    layout and formatting, and the inclusion of hypertext links. These
  362.    links are presented in the form of selectable highlighted terms or
  363.    images embedded directly within the text that lead to other documents,
  364.    images, etc., which may themselves contain embedded hyptertext links.
  365.    Selecting one of these links tells the software to retrieve the
  366.    selected item for display, from wherever in the world it is stored.
  367.    The items may be documents, images, audio, or even animation.
  368.    
  369.    WWW's hypertext formatting language (HTML) is an application of SGML
  370.    (see earlier). The freeware program RTFtoHTML converts Rich Text
  371.    Format (an output option on many wordprocessors) to HTML and macros
  372.    for converting text to HTML are available for MS Word. The HTML
  373.    browser tkWWW (freeware for Unix/X11) includes a WYSIWYG editor for
  374.    HTML.
  375.    
  376.    During 1993 World Wide Web (WWW) began to have a profound effect on
  377.    the academic community. Like Gopher, participation on the "Web" is
  378.    growing exponentially (doubling time is at present 3 months). The
  379.    stimulus of the explosion was NCSA's release of a new program (Mosaic)
  380.    that realized the full potnential of WWW's hypermedia capability. NCSA
  381.    Mosaic is now available under X-Windows, Macintosh and DOS-Windows
  382.    systems. Important features of Mosaic include:
  383.    
  384.      * it permits browsing of ALL of the main network protocols (FTP,
  385.        WAIS, Gopher, telnet, etc.);
  386.        
  387.      * it permits both text formatting and images that are embedded
  388.        directly within text, so providing the capability of a true
  389.        "electronic book";
  390.        
  391.      * it integrates freely available third party display tools for image
  392.        data, sound, Postscript, animation, etc.
  393.        
  394.      * it permits seamless integration of a user's own local data
  395.        (without the need of a server) with information from servers
  396.        anywhere on the Web;
  397.        
  398.      * its forms interface allows users to interact with documents that
  399.        appear as forms (including buttons, menus, dialog boxes) which can
  400.        pass complex queries back to the server.
  401.        
  402.      * its map interface allows users to query a map interactively. This
  403.        would allow (say) a user to get information about different
  404.        countries just by clicking on a world map, in GIS-like fashion.
  405.        
  406.      * its authorization feature provides various security features, such
  407.        as restricting access to particular information, passwords etc.
  408.        
  409.      * its SQL gateway allows servers to pass queries to databases. Such
  410.        gateways are already implemented for many databases (e.g.
  411.        Australian plants, DNA sequences).
  412.        
  413.      * its ability to run scripts or programs on the server and to
  414.        deliver the results to WWW.
  415.        
  416.      * its ability to include files dynamically and thus build up and
  417.        deliver documents "on the fly".
  418.        
  419.    
  420.    
  421. IMPLEMENTATION
  422.  
  423.   ORGANIZATION
  424.   
  425.    Although SINS could (and no doubt will) be organized in many different
  426.    ways. Using the example of running a public database, the scheme
  427.    outlined below recommends mechanisms that are designed to distribute
  428.    the workload, encourage participation and to accommodate growth:
  429.      * One node acts as a secretariat for the network.
  430.      * Each node serves some special function, such as acting as
  431.        coordinating centre for one or more SIN projects, or acting as a
  432.        regional centre.
  433.      * Each node mirrors a set of basic documents and/or menus that
  434.        define the basic services offered by the SIN.
  435.      * Maintenance of each project and/or document is supervised by a
  436.        coordinating centre (not necessarily the same for every activity).
  437.      * Material for publication may be submitted to any node (or perhaps
  438.        to some subset).
  439.      * The coordinating centre for a given project regularly harvests
  440.        incoming items from other nodes, carries out quality control
  441.        procedures, and prepares updates.
  442.      * Each node carries out a mirroring operation regularly (say once
  443.        per day) to retrieve up-to-date, local copies of updates and other
  444.        new information from coordinating centres.
  445.        
  446.    
  447.    
  448.    Many of the above steps will be automated. "Mirroring" is the process
  449.    of duplicate of a set of information that originates from another
  450.    site. Whereas it is generally better to provide a pointer to the site
  451.    that maintains an item of information, it is desirable to mirror any
  452.    information (e.g. a "home" page for the SIN) that is frequently used,
  453.    especially to reduce international traffic. Mirroring is also
  454.    desirable in case of disk crashes or breaks in entwork connections.
  455.    
  456.   STANDARDS
  457.   
  458.    Coordinating and exchanging scientific information are possible only
  459.    if different data sets are compatible with one another. To be
  460.    reusable, data must conform to standards. The need for widely
  461.    recognized data standards and data formats is therefore growing
  462.    rapidly. Given the increasing importance of network communications
  463.    (Green, 1993a, 1993bb) new standards should be compatible with network
  464.    protocols. To be reusable, data must conform to standards. Standards
  465.    play a crucial role in coordinating activity. We need to develop two
  466.    main kinds.
  467.    
  468.     1. Attribute standards define what information to collect. Some
  469.        information (e.g. who, when, where and how) is essential for every
  470.        data set; other information (e.g. soil pH) may be desirable but
  471.        not essential.
  472.     2. Quality control standards provide indicators of validity,
  473.        accuracy, reliability or methodology for data fields and entries
  474.        (see below). Examples include indicators of precision for (say)
  475.        spatial location, references to glossaries or authorities used for
  476.        names, and codes to indicate the kinds of error checks that have
  477.        been performed on the entry.
  478.     3. Interchange standards specify how information should be laid out
  479.        for distribution.
  480.        
  481.   QUALITY CONTROL
  482.   
  483.    Users need assurance that data is correct, that software works, and
  484.    that articles contain valid information. Because anyone can open a
  485.    network site and release anything they like, quality is not assured.
  486.    Users therefore tend to refer to sites that offer some form of
  487.    authorization or guarantee of quality. For this reason users usually
  488.    prefer sites that are well-managed, well-organized, or belong to major
  489.    institutions.
  490.    
  491.    The two main issues are whether the methods used are sound, especially
  492.    species identifications, and whether errors have occurred in recording
  493.    the data.
  494.    
  495.    To ensure validity, molecular biology PDDs use the simple, but
  496.    effective criterion of publication in a refereed journal. In the case
  497.    of biodiversity information, however, this restriction would rule out
  498.    vast quantities of useful information that is collected by government
  499.    agencies, business companies, and public interest groups. Many
  500.    different approaches can be used. For example one might insist that a
  501.    description of methodology accompany each data set that has not been
  502.    published in the scientific literature. Alternatively, the PDD might
  503.    accept all contributions and categorize them on the basis of the
  504.    evident quality of information. These categories would be based on
  505.    methodological grounds, such as whether or not vouchered specimens
  506.    were collected and checked.
  507.    
  508.    Whatever criterion is used it is desirable to include indicators of
  509.    reliability for the information in the attribute standard. Ideally
  510.    every item of information should include a tag denoting accuracy or
  511.    validity. For instance, is location given to the nearest minute of
  512.    Latitude? or degree? and how was it derived? By reference to a map? a
  513.    global positioning system? or interpolated much later from a site
  514.    description?
  515.    
  516.    Quality control fields need to include information about what error
  517.    checks have been applied to ensure that the values have been recorded
  518.    and entered correctly. For example, contributors should indicate
  519.    whether they have checked entries by, say, comparing them against
  520.    field notes or specimen labels.
  521.    
  522.    The compiling agent can apply consistency and outlier checks to filter
  523.    out errors that may have been missed earlier (Green 1991, 1992). If
  524.    the data incorporate sufficient redundancy, then consistency checks
  525.    can reveal many errors. Does the named species exist? For instance,
  526.    does the location given for a field site lie on land? and within the
  527.    country indicated? If the database maintains suitable background
  528.    information, then outlier tests can reveal suspect records that need
  529.    to be rechecked. For instance if a record indicates that a plant grows
  530.    at a site that has significantly lower rainfall than any other for
  531.    that species, then the record needs to be checked in case of error.
  532.    Both sorts of checks can be automated and are now routine for census
  533.    data. They have recently been applied to herbarium records and other
  534.    environmental data (Chapman, 1992; Chapman & Busby, in press).
  535.    
  536.    In a PDD quality control is everyone's responsibility. Far from
  537.    lacking peer review, a PDD can subject contributions to far more
  538.    rigorous and exacting tests than most data sets ever receive. When a
  539.    contribution is received the PDD compiler should apply tests to ensure
  540.    that the data set conforms to the standard and for any obvious errors.
  541.    If any faults are detected, the data set is returned to the source for
  542.    correction. After this initial checking, new data sets are placed in
  543.    the updates area (Fig. 1) and users are invited to submit comments
  544.    about them. After suitable checks, and corrections by the contributor,
  545.    the new entry is transferred to the database proper.
  546.    
  547.   DISTRIBUTED DATABASES
  548.   
  549.    An important activity of a SIN is for many sites to contribute to
  550.    build a joint database that is searchable across the network. A
  551.    network database can have four different levels of distribution:
  552.    
  553.      * Centralized - the entire database resides on a single server;
  554.        other sites point to it. This is the most common form of network
  555.        database.
  556.        
  557.      * Distributed data, separate indices at each site - The database
  558.        consists of several component databases, each maintained at
  559.        different sites. A common interface (e.g. a WWW document) provides
  560.        pointers to the components, which are queried separately. This
  561.        form of loose integration is common using Gopher, WAIS and WWW.
  562.        
  563.      * Distributed data, single centralized index - The data consists of
  564.        many items, which are stored at different sites but accessed via a
  565.        database of pointers maintained at a single site. Several forms of
  566.        network indexing, such as Veronica, Jughead, WAIS, and several WWW
  567.        harvesters support this form of integration.
  568.        
  569.      * Distributed data, multiple queries - many component databases are
  570.        queried simultaneously across the network from a single interface.
  571.        At present no common protocol publicly available supports such a
  572.        flexible form of database integration, but it is possible to use
  573.        proprietary software from a single supplier.
  574.        
  575.   NETWORK LIBRARY
  576.   
  577.    An important function of the biodiversity special interest network
  578.    will be to act as a biodiversity "library". That is, it should provide
  579.    organized links to relevant information, wherever this information
  580.    resides on the Internet. The logical design of the system could be
  581.    based around major projects & themes and the library can be compiled
  582.    and maintained in several ways:
  583.    
  584.      * Members can submit "hotlists" of thematic pointers to a
  585.        coordinating centre for editing;
  586.        
  587.      * An automatic registration service (e.g. via email or as a WWW
  588.        form) can be available for people to submit relevant links
  589.        information, which is then processed by scripts on a network
  590.        server.
  591.        
  592.    
  593.    
  594.    The above information could be made available via a series of menus
  595.    and pages available on the Internet via Gopher, World Wide Web and
  596.    other suitable protocols. Copies of the main pages and hierarchy of
  597.    documents could be available at each node in the BIN21 network.
  598.    
  599.    This will require a regular "mirroring" process to ensure that all
  600.    nodes are kept up to date. It is very important to ensure that all
  601.    information items in this library are visible at all nodes and not
  602.    just visible as an isolated reference at a particular site.
  603.    
  604.   NETWORK PUBLISHING
  605.   
  606.    Network publications can range from familiar paper items - books,
  607.    journals, news magazines - that are simply transferred to electronic
  608.    form to novel productions, such as image databases or thematic
  609.    compilations of pointers to items stored at many different sites.
  610.    
  611.    An important principle in network publication is that the site that
  612.    maintains an item of information publishes the information. This rule
  613.    applies esecially to items that are updated regularly. Secondary
  614.    sources (other sites that want to provide their users with access to
  615.    the item concerned) should adopt one of two options: either provide a
  616.    link to the primary site, or else mirror the original by downloading
  617.    copies at regular intervals. These practices ensure that users always
  618.    have access to the most up-to-date information available.
  619.    
  620.    One approach to publishing that a SIN can adopt is simply to register
  621.    relevant existing activities. This benefits both the SIN as a whole
  622.    and the publishing site:
  623.    
  624.      * individual sites can gain an international "stamp of approval",
  625.        and world-wide collaboration, for particular projects by having
  626.        them recognized by the SIN;
  627.        
  628.      * a SIN can incorporate many different projects, each supervised by
  629.        a separate node, and no single agency needs to bear the full
  630.        burden for any particular project.
  631.        
  632.      * a SIN or site can continue to focus on its own particular area of
  633.        specialization or expertize and still provide access to
  634.        information held at other sites.
  635.        
  636.   AUTOMATION
  637.   
  638.    Automation is a key element in making SINs viable. The aim is to
  639.    reduce the workload and human involvement in creating and maintaining
  640.    information, and hence costs, for participating nodes. For example,
  641.    publishing submitted material (whether text, data, images etc)
  642.    involves several steps (Fig. 1). As many as possible of these steps
  643.    should be automated. For instance, storing, registering and
  644.    acknowledging incoming material are routine procedures that are
  645.    time-consuming if done "by hand".
  646.    
  647.    Once the necessary scripts and programs have been developed, they
  648.    could be provided with other standard files as astartup package to new
  649.    nodes. In many cases the scripts and programs needed to automate
  650.    particular procedures already exist and are freely available on the
  651.    Internet.
  652.    
  653. DISCUSSION
  654.  
  655.    The notion of SINS as described here derives from three sources.
  656.    First, as manager of a network information server I was prompted to
  657.    develop the idea after observing the ways in which various sites had
  658.    begun to coordinate their activities on particular topics. It seemed
  659.    to me that SINS have the potential to fill both the role of learned
  660.    societies as authoritative bodies, and of libraries as stable
  661.    repositories of knowledge and information.
  662.    
  663.    Second, the evident success of molecular biology databases and physics
  664.    preprint services suggests that the underlying principles can be
  665.    extended both to other fields and to other areas of activity. Across
  666.    the entire range of science, for instance, observations and
  667.    experiments yield a wealth of raw data which, if suitably organized,
  668.    can add value to future studies.
  669.    
  670.    Finally there is the problem of how to organize an exploding pool of
  671.    information on the network. Librarians have struggled with this
  672.    problem for centuries. Whilst their solutions are useful, the
  673.    information explosion on the network poses problems never encountered
  674.    before: the sheer volume of information, rapid turnover and change
  675.    (especially the need to maintain information), and the flexibility of
  676.    hypertext and multimedia. The SINS approach provides a user-driven
  677.    solution, in which groups of people interested in a particular topic
  678.    organize and index information in ways that they find most useful.
  679.    
  680.    Various projects are putting into practice the SINS concept, as
  681.    outlined here. For example, FireNet, for example, is a SIN concerned
  682.    with all aspects of landscape fires (Green et al., 1994) and the
  683.    Biodiversity Information Network (BIN21) has now organized its
  684.    network activity as a SIN (Green and Croft, 1994). These and other
  685.    similar activities have provided many useful lessons about putting the
  686.    SINS idea in practice. I have tried to incorporate some of this
  687.    practical experience into the above account. The interest shown in
  688.    such groups encourages my belief that the SINS approach is a very
  689.    fruitful way to organize activity via the Internet.
  690.    
  691.    To put current developments into perspective, we can consider the
  692.    changes that have taken place in the way that scientific results are
  693.    disseminated. We might term the Sixteenth and Seventeenth Century was
  694.    the era of correspondence between great scholars. The Nineteenth
  695.    Century can be classed as the era of the great societies and the
  696.    Twentieth as the era of the great journals. The Twenty-First Century
  697.    will surely become the era of the knowledge web and I expect that
  698.    SINS, whatever form they may take, will play a major role in its
  699.    organization.
  700.    
  701. ACKNOWLEDGEMENTS
  702.  
  703.    This work was supported by the Australian Research Council.
  704.    
  705. REFERENCES
  706.  
  707.      * Bilofsky, H. S. & Burks, C. (1988). The GenBank genetic sequence
  708.        data bank. Nucl. Acids Res. 16: 1861-1863.
  709.      * Burdet, H. M. (1992). What is IOPI? Taxon 41: 390-392.
  710.      * Cameron, G. N. (1988). The EMBL data library. Nucl. Acids Res. 16:
  711.        1865-1867.
  712.      * Canhos, V., Lange, D., Kirsop, B.E., Nandi, S., Ross, E. (Eds).
  713.        (1992). Needs and Specifications for a Biodiversity Information
  714.        Network. United Nations Environment Programme, Nairobi.
  715.      * Croft, J.R. (1989). Herbarium information standards and protocols
  716.        for interchange of data. Australian National Botanic Gardens,
  717.        Canberra.
  718.      * Goldfarb, C. (1990). The SGML Handbook. Oxford: Oxford University
  719.        Press.
  720.      * Green, D.G. (1993a). Databasing the world. INQUA - Commission for
  721.        the Study of the Holocene, Working Group on Data-Handling Methods
  722.        9, 12-17.
  723.      * Green, D.G. (1993b). Hypermedia and palaeoenvironmental research.
  724.        INQUA - Commission for the Study of the Holocene, Working Group
  725.        on Data-Handling Methods 10, 11-14.
  726.      * Green, D.G. (1994). Databasing diversity - a distributed,
  727.        public-domain approach. Taxon, 42, xxx-xxx.
  728.      * Green, D.G. and Croft, J.R. (1994). Proposal for Implementing a
  729.        Biodiversity Information Network. In Linking Mechanisms for
  730.        Biodiversity Information. Proceedings of a Workshop for the
  731.        Biodiversity Information Network, Base de Dados Tropical,
  732.        Campinas, Sao Paulo, Brasil.
  733.      * Green, D.G., Gill, A.M. and Trevitt, A.C.F. (1994). FireNet - an
  734.        international network for landscape fire information. Wildfire -
  735.        Quarterly Bulletin of the International Association of Wildland
  736.        Fire xx, xxx-xxx.
  737.      * Greuter, W. (1991). Draft lists of names in current use: first
  738.        management progress report. Taxon 40: 521-524.
  739.      * Krol, E. (1992). The Whole Internet Guide and Catalog. O'Reilly
  740.        and Associates.
  741.      * Smith, J. & Stutely, R. (1988). SGML: the Users' Guide to ISO
  742.        8879. New York/Chichester/Brisbane/Toronto: Ellis Horwood
  743.        Limited/Halstead Press.
  744.